Guide de programmation CUDA : Fondements du développement de noyaux CUDA

Le développement de noyaux CUDA commence par la définition d'un noyau, qui est une fonction C++ spécialisée conçue pour s'exécuter en parallèle sur le grand nombre de cœurs d'une GPU NVIDIA. Ces fonctions représentent l'unité fondamentale de travail dans le modèle de programmation CUDA, agissant comme un pont entre la logique séquentielle de l'hôte et l'exécution massivement parallèle sur le périphérique.

1. Le spécificateur global

Le __global__ spécificateur de déclaration est un qualificateur API obligatoire qui indique au compilateur de générer du code pour le GPU tout en conservant le point d'entrée de la fonction visible depuis le CPU. Les fonctions qui s'exécutent sur le GPU et peuvent être appelées depuis l'hôte sont appelées des noyaux.

2. Environnement d'exécution

Les noyaux sont envoyés vers et exécutés sur Multiprocesseurs de flux (SM). Le SM est le moteur principal de calcul au sein d'un GPU NVIDIA, chargé de gérer des centaines de threads simultanés. Chaque SM gère des blocs de threads et les programme sur les unités de traitement.

Règle de syntaxe : Les noyaux doivent strictement retourner void. Comme ils s'exécutent de manière asynchrone par rapport à l'hôte, ils ne peuvent pas renvoyer directement une valeur au CPU ; ils doivent écrire les résultats dans la mémoire allouée sur le périphérique.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary function of the __global__ specifier?

It defines a function that runs on the CPU but is callable from the GPU.

It defines a kernel that runs on the GPU and is callable from the CPU.

It allocates memory on the GPU's SM cache.

It synchronizes all threads in a block.

✅ Correct!

Correct! __global__ is the bridge used to launch kernels from Host code.

❌ Incorrect

Incorrect. __global__ specifically identifies entry-point kernels for GPU execution called by the Host.

QUESTION 2

Why must CUDA kernels return void?

Because they execute asynchronously and have no direct path to return values to the Host thread.

To save registers on the SM.

Because GPU memory is read-only.

The NVCC compiler does not support float returns.

QUESTION 3

Which hardware component is responsible for managing and executing threads in a CUDA kernel?

The PCIe Controller.

The Streaming Multiprocessor (SM).

The Host RAM controller.

The BIOS.

QUESTION 4

What happens when a Host calls a kernel function?

The CPU halts until the GPU finish processing.

The GPU creates a clone of the function for every available SM.

The kernel is enqueued for execution on the GPU, and the CPU continues to the next instruction.

The CPU performs a context switch to the GPU.

QUESTION 5

Which of the following is the correct definition of a CUDA kernel?

A function that executes on the GPU and is invoked from the Host.

A C++ library for file I/O.

A hardware driver for NVIDIA GPUs.

A standard CPU function with the __gpu__ prefix.

1. Le spécificateur __global__

2. Environnement d'exécution

1. Le spécificateur global